一份電子資料,除了格式之外,另一項很重要的特性本篇要介紹的「編碼」。這裡提的不是密碼,是字元的內碼。
在電腦的檔案世界中,要編輯一份檔案的第一件事就是開啟檔案並讀取檔案內容,而開啟檔案最重要的一個部份,就是要找到正確的應用程式來使用。
如何找到正確的應用程式來開啟檔案呢?有幾種可能的做法:第一種是由檔案的副檔名判斷,看是 .TXT 還是 .JPG ;第二種是由使用者自定,例如有人喜歡用 Notepad 開文字檔,有人喜歡用 Word 編輯文字檔;第三種是由檔案本身的內容來判斷,許多型式檔案的檔頭就有特定的幾個 bytes 可以用來判斷其檔案型態。以下舉幾個例子:
BMP
EXE
PDF
ZIP
回到 XML 本身,前面已經說明過,XML 本質上是純文字檔,所以並沒有什麼複雜的檔案型式。在一份 XML 文件中,很重要的一個屬性,就是編碼。編碼的目的只有一個:就是「告訴那位開啟這份 XML 文件的程式,這份文件是用什麼編碼寫成的」,有了這個資訊,處理 XML 的程式才能正確解讀資料。
要描述XML所使用的編碼很簡單,只要在文件的第一列宣告列的 encoding 屬性說明就可以了,如下所示:
<?xml version="1.0" encoding="UTF-8"?>
其中 encoding 中的 UTF-8 就是說明「此份文件是採用 UTF-8 的編碼」。
UTF-8 算是很常見到的編碼,以下再提供幾個不同的編碼,可以看看大概的樣子:
Shift_JIS
UCS-4
UTF-16
ISO-8859